我们提出了一个新任务和数据集ScreenQA,以通过问答来理解屏幕内容。现有的屏幕数据集专注于结构和组件级别的理解,或者是更高级别的复合任务(例如导航和任务完成)。我们试图通过注释RICO数据集的80,000多个问题答案对,以弥合这两者之间的差距,以期基于屏幕阅读理解能力。
translated by 谷歌翻译